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O ESTYMACJI PREFERENCJI W SZTUCZNYCH SIECIACH 
SPOŁECZNYCH: 


Streszczenie 


W artykule rozważano scenariusz, w którym administracja publiczna wykorzystuje internetową platformę 
społecznościową do komunikacji z obywatelami i uzyskiwania informacji o ich preferencjach. Z, platfotmy tej 
korzysta tylko część całej populacji (subpopulacja), co powoduje, że preferencje obserwowane na platformie 
mogą być niereprezentatywne dla całego społeczeństwa. W niniejszym opracowaniu uwzględniono dwa pro- 
blemy związane z brakiem reprezentatywnosci preferencji, tj.: (1) odmienną strukturę demograficzną po- 
pulacji i subpopulacji oraz (2) różnice w procesie dynamiki preferencji w całej populacji i subpopulacji wyra- 
żającej swoje opinie na platformie społecznościowej. 

Dane wykorzystane w analizie obejmują informacje o aktywności użytkowników na platformie społecz- 
nościowej, ich dane socjodemograficzne oraz dane o populacji pochodzące ze spisu powszechnego. W celu 
badania dynamiki preferencji skonstruowano wieloagentowy model symulacyjny, w którym sieć społeczną 
przedstawiono za pomocą nieskierowanego grafu, gdzie węzły reprezentują obywateli, a łuki ich relacje spo- 
łeczne. 


1 Niniejsze prace badawcze zostały zrealizowane w tamach projektu ROUTE-TO-PA (Raising Open 
and User-friendly Transparency-Enabling Technologies for Public Administrations) [http:/ / toutetopa.eu/], który 
jest finansowany ze środków Europejskiego Programu w Zakresie Badań Naukowych i Innowacji ,,Hori- 
zon 2020” na podstawie umowy o dotację nr 645860. Autorzy wyrażają również podziękowanie anonimo- 
wym recenzentom za ich uwagi dotyczące treści artykułu. 
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W procesie analizy najpierw jest generowana sztuczna populacja i na niej jest symulowana dynamika pre- 
ferencji. Następnie losowo, metodą kuli śnieżnej (ang. szowbalsampling) są wybierane różne niereprezentatyw- 
ne subpopulacje, na których są testowane algorytmy uogólniania preferencji przez odtwarzanie dynamiki całej 
populacji. Miarą jakości modelu jest zgodność preferencji między subpopulacją a całą populacją. Rezultaty 
przeprowadzonych symulacji wskazały na skuteczność zastosowanej metody: wraz z kolejnymi krokami sy- 
mulacji wzrasta zgodność między populacją rzeczywistą a syntetyczną. Okazało się również, że najistotniej- 
szymi determinantami błędów uogólniania preferencji są model dyfuzji preferencji oraz waga opinii własnej 
agenta. 


Słowa kluczowe: dynamika preferencji, modelowanie sieci społecznych, symulacje wieloagentowe 


PREFERENCE ELICITATION IN SYNTHETIC SOCIAL NETWORKS 
Summary 


The paper considers a scenario in which public administration (PA) uses an online social platform to col- 
lect information on citizens' preferences. However, the opinions of the sub-population that uses the online 
platform might be not representative. The author develops a method for generalization of the dynamics of 
the preferences observed on the social platform onto the entire population. The available data include infor- 
mation collected by the PA from the online platform (assuming that it is run and administered by the PA) 
and census data regarding the population. Hence, the PA has access to basic personal data of platform users 
(eg. gender and age), position in the online social network, and opinions revealed on the platform. The 
online usets' data can be analyzed along with the aggregated census data on the entire population. The author 
has implemented a multi-agent simulation model that takes into account the distribution of personal attrib- 
utes, social network data, and opinion diffusion dynamics. The analysis involves showing how different algo- 
rithms enable generalization of preferences collected by the online platform to the entire population. The te- 
sults of the analysis prove that the proposed method is efficient in the preference elicitation process — with 
each simulation step, the preference congruence level between real and synthetic populations increases. The 
main determinants of preference elicitation errors include the preference diffusion model and the weight of 
the agents’ own opinions. 


Key words: preference dynamics, social network modelling, agent-based simulation 


JEL: C6, C8, C9, R5 


1. Wstep 


Celem pracy jest konstrukcja metod uogólniania preferencji z niereptezentatywnej 
podpopulacji na całą populację z uwzględnieniem procesu dyfuzji preferencji w sieciach 
społecznościowych. Potrzeba stworzenia takiego podejścia powstała w trakcie realiza- 
cji projektu ROUTE-TO-PA finansowanego w ramach programu Unii Europejskiej 
„Horizon 2020” (numer grantu 645860). Głównym produktem projektu ROUTE- 
TO-PA jest platforma społecznościowa Social Platform fot Open Data (SPOD, 
http: / /spod.toutetopa.eu/). Platforma SPOD umożliwia interakcję pomiędzy obywate- 
lami oraz interakcję obywateli z administracją publiczną. Interakcje te mają opierać się na 
otwartych danych, a mianowicie: administracja publiczna udostępnia obywatelom na 
platformie SPOD informacje dotyczące alokacji oraz wydatków środków publicznych. 
Na ich podstawie obywatele mogą monitorować i kontrolować podejmowane przez nią 
działania administracyjne i tym samym wpływać na wzrost ich efektywności. 
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Jednocześnie platforma SPOD jest wykorzystywana przez administrację publiczną 
w celu zbierania informacji o preferencjach obywateli. Preferencje i opinie wyrażane 
przez użytkowników portalu, którzy stanowią pewną część całego społeczeństwa (sub- 
populację), administracja publiczna uogólnia na całą populację. Dzięki temu, bazując 
na pełniejszej wiedzy o potrzebach i preferencjach społeczeństwa, jest w stanie efektyw- 
niej podejmować wszelkie decyzje administracyjne. 

Dane wykorzystane w analizie obejmują informacje o aktywności użytkowników na 
platformie społecznościowej, ich dane socjodemograficzne podane w procesie rejes- 
tracji oraz dane o całej populacji pochodzące ze spisów powszechnych. Dostępne dane 
o użytkownikach obejmują: płeć, wiek, status społeczny, informacje o zatrudnieniu i dy- 
namikę wyrażanych opinii. 

Założenie, że tozkłady cech społeczno-demograficznych wśród użytkowników intet- 
netowego portalu społecznego są zbliżone do rozkładu w całej populacji nie musi być 
prawdziwe. Rozkłady te mogą różnić się między populacją a subpopulacją, co prze- 
kłada się na niereprezentatywność. Należy w tym miejscu wyróżnić dwa błędy systema- 
tyczne, charakterystyczne dla opisywanego problemu: selection bias oraz persuasiveness bias. 
Selection bias wiąże się z niereptezentatywną dla całego społeczeństwa próbą użytkow- 
ników portalu internetowego, na podstawie której mają być dokonywane uogólnienia 
na całą populację. Z kolei, persuasiveness bias dotyczy sytuacji, w której kilku przekonują- 
cych użytkowników portalu może mieć znaczący wpływ na dynamikę preferencji i tok 
całej dyskusji. 

W celu modelowania dynamiki preferencji takich problemów, została skonstruowana 
innowacyjna metoda wykorzystująca podejście symulacyjne: wieloagentowy model dy- 
namiki preferencji (ang. open data governance model — ODGM). Jego zadaniem jest z jednej 
strony dostarczenie administracji publicznej informacji na temat aktywności użytkow- 
ników platformy, w tym wyrażane przez nich opinie i preferencje oraz ich pozycja w sie- 
ci społecznej, a z drugiej strony ma on w efektywny sposób uogólniać te preferencje na 
całą populację. Model dynamiki preferencji opiera się na symulacjach wieloagento- 
wych, w wyniku których jest możliwe przeprowadzenie zaawansowanej analizy statystycz- 
nej i wizualizacji wykonanych eksperymentów symulacyjnych. Został on zbudowany 
w środowisku MASON i napisany w języku Java. Wykonaniu analiz statystycznych 
i wizualizacji posłużyły pakiety GNU Ri Python. 

Na potrzeby niniejszego artykułu następujące słowa: subpopulacja, próba i podpopulaga 
oraz populacja sztuczna i populacja syntetyczna będą używane zamiennie. Analogicznie, wy- 
rażenia administracja publiczna i samorząd będą traktowane jako synonimy. Uggó/nianie prefe- 
rencji jest opisywane także jako ich generalizowanie czy odtwarzanie, a pojęcia: platforma 
spotecznościowa, platforma społeczna i platforma internetowa odnoszą się do strony interne- 
towej umożliwiającej interakcję pomiędzy obywatelami oraz interakcję obywateli z ad- 
ministracją publiczną. 

Struktura artykułu jest następująca: w rozdziale 2. przedstawiono problem estymo- 
wania dynamiki preferencji w sztucznych sieciach społecznych; w rozdziale 3. opisano 
wykorzystana metodologię, w rozdziale 4. zaptezentowano zastosowane narzędzia oraz 
wyliczono kolejne etapy modelowania, a w rozdziale 5. ukazano wyniki analizy symula- 
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cyjnego modelu wieloagentowego przeprowadzonej na danych dotyczących populacji 
włoskiego miasta Prato, znajdującego się w tegionie Toskanii. 


2. Problem tekonstrukcji dynamiki preferencji w sztucznych sieciach 
społecznych 


Dobra komunikacja na linii samorząd — mieszkańcy jest niezbędna w celu lepszego zro- 
zumienia potrzeb i preferencji mieszkańców przez administrację publiczną. Z kolei, lep- 
sze zrozumienie obywateli przyczynia się do podejmowania bardziej efektywnych de- 
cyzji administracyjnych i do prowadzenia świadomej polityki samorządowej. Odpo- 
wiedzią na potrzebę poprawnej komunikacji są platformy społecznościowe, które sta- 
nowią miejsce dyskusji na tematy decyzji administracyjnych pomiędzy mieszkańcami 
(C2C — citizen-to-citizen) oraz mieszkańców z administracją (C2G — citizen-to-governmeni). 
W literaturze pokazano, że platformy społeczne promują kulture przejrzystości, otwar- 
tości informacji i w efekcie sprzyjają zmniejszaniu korupcji [Bertot, 2010]. Co więcej, 
platforma społecznościowa to nie tylko miejsce komunikacji samorządów z mieszkań- 
cami, ale tównież miejsce dyskusji samych mieszkańców na tematy administracyjne, co 
umożliwia samorządom bezpośrednią obserwację wymiany zdań pomiędzy obywatelami 
i śledzenie ich opinii. Dzięki platformom administracja publiczna ma wgląd do prefe- 
tencji mieszkańców w wielu obszarach, więc może zwracać uwagę na priorytetowe kwe- 
stie, to jest takie, które w danym momencie są najważniejsze dla obywateli i o któ- 
tych goraco dyskutują. Koncepcja platformy społecznościowej jest zgodna z ideami open 
government i open data. 

Administracja publiczna na podstawie danych z platformy powinna móc wyciągnąć 
wnioski o rozkładzie preferencji dla całej populacji. Subpopulacja aktywna na platformie 
nie stanowi jednak całej populacji. Użytkownicy platform internetowych nie są dobrą 
reprezentacją całej populacji i jej charakterystyk, takich jak: płeć, wiek czy poziom wy- 
nagrodzenia. Wnioski wyprowadzone wyłącznie na podstawie preferencji subpopulacji, 
czyli użytkowników platformy, obarczone są ryzykiem stronniczości. Dotyczy to takich 
kwestii, jak opinia większości społeczeństwa bądź rozkład zróżnicowania opinii miesz- 
kańców. Ryzyko zmniejsza się wraz ze wztostem liczby użytkowników platfotmy, jed- 
nakże pozostaje na wysokim poziomie, zwłaszcza w początkowych fazach życia por- 
talu. W związku z powyższym, aby uogólnić jakiekolwiek infotmacje z platformy, admi- 
nistracja publiczna powinna uwzględnić jakościowy i ilościowy charakter niejedno- 
todności respondentów w odniesieniu do takich aspektów, jak społeczna czy demo- 
graficzna struktura subpopulacji i populacji. 

Zwykle w klasycznych metodach statystycznych, w celu poznania opinii populacji na 
dany temat, jest przeprowadzana ankieta, dzięki której respondentów wybiera się tak, 
aby próba była reprezentatywna dla danej populacji, tj. jej struktura powinna być zbieżna 
ze strukturą populacji w maksymalnie wielu wymiarach. Próba jest konstruowana 
zgodnie z zamysłem i potrzebami badaczy. W przypadku portalu społecznościowego sy- 
tuacja jest całkowicie odmienna: nie ma kontroli nad tym, kto się na niej rejestruje i kto 
z niej korzysta. Można powiedzieć, że próba jest samoistnie tworzona. Struktura użyt- 
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kowników platfotm nie jest tożsama ze strukturą ze spisów ludności, ale można za- 
łożyć, że koreluje z tymi danymi przynajmniej wzdłuż niektórych wymiarów, takich jak: 
wiek, przychód bądź skłonność do wyrażania opinii (otwartość, radykalizm). Mimo ko- 
relacji, nie jest możliwe uogólnienie opinii wyrażanych na portalach społecznościowych 
na całą populację przy wykorzystaniu klasycznych metod statystycznych. 

Poza cechami charakterystycznymi dla spisów ludności, portale społecznościowe 
dostarczają nowego wymiaru informacji, która jest zawarta w połączeniach i sieciach 
pomiędzy użytkownikami. Informacje te są odzwierciedlane poprzez wyrażane przez 
mieszkańców poglądy na dany temat oraz dyskusje pomiędzy użytkownikami, często 
nieznającymi się nawzajem. Oddziaływania on-line mogą mieć charakter bezpośredni, 
na przykład, gdy dwóch obywateli oddziałuje na siebie podczas dyskusji na dany temat 
albo pośredni, na przykład, gdy określeni użytkownicy omawiają ten sam temat na in- 
nym forum z innymi użytkownikami albo publikują swoje opinie publicznie i każdy użyt- 
kownik może je zobaczyć. Na potrzeby artykułu należy przyjąć założenie, że połącze- 
nia między obywatelami, ustalone za pośrednictwem platformy internetowej, nawiązu- 
ją do sytuacji, w której dwoje obywateli bierze udział w dyskusji nad danym tema- 
tem, niezależnie od tego, czy oddziałują między sobą bezpośrednio czy pośrednio. 

Uogólnianie prefetencji jest klasycznym problemem w statystycznej i ekonomicz- 
nej literaturze o następującej postaci: badacz chce poznać preferencje całej populacji, 
ale posiada jedynie preferencje małej próby. W idealnym przypadku, gdy próba jest lo- 
sowa, można uogólnić wyniki bezpośrednio na całą populację (średnia w próbie jest 
nieobciążonym estymatorem średniej w populacji) i następnie można obliczyć błąd 
estymacji. Jeśli ptóba nie jest reprezentatywna, to wnioskowanie o populacji nie jest 
możliwe lub wnioskowanie takie wymaga zastosowania innych narzędzi statystycznych. 
W szczególności wyniki mogą zostać odpowiednio ptzeskalowane, wykorzystując statys- 
tyczne metody. W kontekście sieci społecznościowych sytuacja jest jeszcze bardziej 
skomplikowana, ponieważ stronniczość nie występuje wyłącznie w odniesieniu do 
różnych rozkładów subpopulacji i populacji (seleczonbias), lecz także ze względu na proce- 
sy społeczne, czyli zmiany opinii w konsekwencji interakcji społecznych wśród obywate- 
li, które mogą mieć odmienną forme dla subpopulacji i populacji (perszastveness bias). For- 
malnie oznacza to, że dyfuzja (rozprzestrzenianie się) preferencji w subpopulacji jest od- 
mienna od dyfuzji preferencji w całej populacji. W najgorszym scenariuszu ta odmienna for- 
ma procesów społecznych może prowadzić do jeszcze większego błędu niż ten wyni- 
kający z różnych rozkładów cech socjodemograficznych w subpopulacji i populacji. 
W takich sytuacjach tradycyjne miary statystyczne wraz z poprawką na korekcję błędu 
zwracalyby wyraźnie gorsze wyniki od zaproponowanej metody prezentowanej w ni- 
niejszym artykule. 

W pracy uwzględniono dwa problemy związane z brakiem reprezentatywnosci pre- 
fetencji: (1) odmienną strukturę demograficzną populacji i subpopulacji oraz (2) różni- 
ce w procesie dyfuzji prefetencji w całej populacji i subpopulacji wyrażającej swoje opi- 
nie na platfotmie społecznościowej. 

Narzedziami wykorzystywanymi do modelowania systemów społeczno-gospodatczych 
są systemy wieloagentowe, opisywane w literaturze. Systemy społeczno-gospodatcze są 
klasyfikowane jako systemy złożone, co oznacza, że system jako całość wykazuje od- 
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mienne, zagregowane cechy w skali makro, od tych, które można wywnioskować z pros- 
tego sumowania cech na poziomie mikto (poszczególnych działań indywidualnych 
jednostek, gospodarstw domowych, przedsiębiorstw i instytucji, które stanowią częś- 
ci całej populacji — makrosystemu). 

Różnice w postępowaniu na poziomie makro i mikro wynikają z wzajemnych in- 
terakcji pomiędzy jednostkami. Dlatego też, w celu efektywnego modelowania złożo- 
nych systemów społeczno-gospodatczych, nie wystarczy uchwycić zachowania poszcze- 
gólnych elementów na poziomie mikro i następnie je zagregować, lecz ważne jest zto- 
zumienie i odzwierciedlenie ogólnej dynamiki systemu [Axtell, 2007; Tesfatsion, 2002]. 
Zasada ta stanowi bazę modelowania wieloagentowego, którego metodologia umoż- 
liwia badaczom ilościowe wyjaśnianie złożoności zjawisk społecznych i gospodar- 
czych. 

Za pomocą modeli wieloagentowych można objaśnić zachowania obserwowane 
w skali makro, które występują w wyniku oddziaływania działań w skali mikro (np. efek- 
ty sieciowe). Takie podejście konstruowania modeli jest określane jako metoda oddolna 
(ang. bottom-up) |Oeffner, 2009], co oznacza, że model jest projektowany na poziomie 
mikro, na którym interakcje i zachowania poszczególnych agentów zostały określone, 
a następnie na poziomie makro jest obserwowana dynamika jako wyłaniający się rezul- 
tat modelu symulacji [Tesfatsion, 2002; Pyka, Fagiolo, 2005]. Same interakcje w mo- 
delu wiążą się z tym, że agenci bezpośrednio na siebie oddziałują, a ich decyzje zależą 
od przeszłych i obecnych wyborów dokonywanych przez siebie i innych agentów [Fagiolo, 
1998]. Interakcje te są ściśle nieliniowe, a kryteria wyboru w modelach wieloagento- 
wych są złożone i obejmują wiele wymiarów. Ponadto, mogą pojawić się pętle sprze- 
żenia zwrotnego pomiędzy poziomami mikro i makro. Wszystkie te cechy modeli wie- 
loagentowych wpływają na endogeniczność i niestacjonatność systemów, które pro- 
wadzą do wyłaniania się nowych wzorców zachowań. Nowe wzotce z kolei wymu- 
szają adaptację agentów do nowego środowiska i napędzają ich uczenie się, które jest 
zaimplementowane w wielu modelach wieloagentowych [Windrum, Moneta, 2007]. 

Modelowanie wieloagentowe uchyla, występujące w standardowym modelowaniu 
ekonomicznym, założenie o jednorodności populacji agentów, w którym każda osoba, 
gospodatstwo domowe, firma itd. są identyczne i w pełni racjonalne. Przez pełną rac- 
jonalność należy rozumieć to, że posiada pełną wiedzę, na jej podstawie podejmuje 
optymalne decyzje i nie ponosi kosztów w procesie podejmowania decyzji. Takie podej- 
ście z pewnością nie jest empirycznie uzasadnione, chociaż w niektórych przypadkach 
jest wystarczające i zapewnia zadowalającą moc predykcyjną. Jednak, gdy celem ana- 
lizy jest wyjaśnienie efektów interakcji pomiędzy agentami, to kluczowe jest uznanie, że 
agenci są różni i nie do końca racjonalni, czyli założenie o ich jednorodności należy 
uchylić. 

Zasadniczą cechą modelu wieloagentowego jest to, że zawieta on wiele heterogenicz- 
nych elementów, tj.: indywidualnych jednostek, gospodarstw domowych, rodzin, firm 
itp., które dostosowują swoje działania do dynamicznie zmieniającego się środowiska. 
Zazwyczaj agenci tworzą hierarchie, np. grupa osób stanowi gospodarstwo domowe 
oraz połączenia, np. sieci społeczne. Te trzy elementy, tj. heterogeniczność, zachowanie 
adaptacyjne i skomplikowane telacje między jednostkami, sugerują, że choć teoretycznie 
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jest możliwe zapisanie pełnej, matematycznej specyfikacji tego modelu, w praktyce nie 
jest to możliwe. Co więcej, właśnie w praktyce to kod komputerowy jest powszechnie 
stosowaną i akceptowaną metodą szczegółowej specyfikacji takich modeli. Ponadto, 
nie tylko określenie specyfikacji modelu jest skomplikowane. Przy rozwiązywaniu takich 
modeli wręcz niemożliwe jest korzystanie ze standardowych narzędzi matematycznych. 
Altetnatywnie wykorzystuje się symulację komputerową. Podsumowując, specyfikacja 
modelu wieloagentowego ze względu na jego złożoność nie jest jednoznaczna (ang. 
explicit), czyli nie jest to model matematyczny, ale domyślna (ang. implicit) — jest to kod 
komputerowy. Analogicznie, metoda analizy nie jest dedukcyjna (dowodzenie twier- 
dzeń), ale indukcyjna (analiza statystyczna wychodząca z symulacji komputerowej) 
[Kaminski, 2012]. 

Model wieloagentowy jest odzwierciedlany i analizowany za pomocą symulacji kom- 
puterowych, co z kolei wprowadza kilka ograniczeń. Najważniejszym z nich jest li- 
czebność agentów w modelu. Modelowanie populacji składającej się z milionów jed- 
nostek na ogół jest niewykonalne (ale możliwe), gdyż wymaga ogromnych mocy oblicze- 
niowych. Jako alternatywę konstruuje się syntetyczną populacje agentów, które z reguły 
zawierają mniej jednostek — np. w skalach tysięcznych. W sztucznych populacjach cha- 
rakterystykę agentów wybiera się tak, aby dokładnie reprezentowali oni populację rze- 
czywistą. Typowym rozwiązaniem jest zebranie zagregowanych danych o rozkładzie cha- 
rakterystyk jednostek w prawdziwym życiu (np.: płeć, wiek, dochód, lokalizacja) wraz 
z ich współzależnościami i stworzenie syntetycznej populacji, która cechuje się po- 
dobnymi rozkładami. Do metod, służących rekonstrukcji syntetycznych populacji, na- 
leżą m.in.: podejście kombinatoryczne (ang. combinatorial approach) czy metoda Monte 
Carlo [zob. np. Haung, Williamson, 2001]. Ta druga została wykorzystana w analizie opi- 
sywanej w niniejszym artykule. 

Ważną zaletą podejścia syntetycznej populacji w modelowaniu wieloagentowym jest 
to, że pozwala ono rozważać różne rzeczywiste scenariusze. Oznacza to, że można nie 
tylko rozważać i modelować zachowanie rzeczywistej populacji (jak na przykład w mo- 
delowaniu ekonometrycznym), ale można również rozważać scenariusze „co będzie, 
jeśli...”, zakładając rozmaite, prawdopodobne schematy przyszłych zdarzeń. Dodatko- 
wo, modele wieloagentowe pozwalają także analizować, w jaki sposób dany system za- 
chowuje się w okteślonych okolicznościach i jakie są konsekwencje zmian w jego struk- 
turze. 

W skład modelu symulacji wieloagentowej wchodzą następujące typy elementów: 

— agenci, przez których rozumie się obiekty o zdefiniowanym typie (np.: gospo- 

darstwa domowe, banki, firmy czy rząd) i zaimplementowani do symulowanego 
środowiska gospodarczego jako podmioty autonomiczne i interaktywne. Cha- 
takteryzują się mikto-parametrami, którymi mogą różnić się (np. typ wykształ- 
cenia czy wieku). Mikro-parametry są stałe lub zmienne w stosunku do kolej- 
nych iteracji symulacji. Każdy agent ma zbiór decyzyjnych mikro-zmiennych, 
które są aktualizowane zgodnie z zasadami ex anie, biorąc pod uwagę reguły 
decyzyjne w modelu; 

— struktura interakcji definiująca, którzy agenci współdziałają ze sobą i w jaki spo- 

sób; 
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— czas, modele są symulowane w dyskretnych krokach czasowych, np.: dzień, 
tydzień czy miesiąc. Różne rodzaje decyzji mogą być podjęte w rozmaitych ta- 
mach czasowych, 

—  makro-Zmienne, które są wynikiem określonej agregacji mikto-zmiennych. Niektóre 
z nich mogą być niezależnie definiowane na poziomie makro (np. stopy pro- 
centowe). 

Model wieloagentowy jest zazwyczaj tak skomplikowany, że nie da się go dokład- 
nie sparametryzować, wykorzystując dane empiryczne. Na ogół należy go kalibrować 
i testować jego zachowanie w stosunku do różnych wartości jego parametrów. 

Ostatnim etapem modelowania wieloagentowego jest zebranie wyników wykona- 
nych symulacji oraz meta-modelowanie. Meta-modelowanie jest kluczowym elementem 
analizy symulacji [Kleijnen, 2000; Santos, 2007] i polega na objaśnianiu stochastycznych 
relacji między parametrami wejściowymi a wyjściowymi modelowanego systemu. Meta- 
modele (przybliżenia) mogą być użyteczne ze względu na swoje trzy główne cechy, 
a mianowicie: (1) zrozumiały kształt relacji między elementami wejścia (ang. input a wy- 
nikiem (ang. outputs), (2) ptedykcja oraz (3) optymalizacja [Barton, 1992]. Te trzy ce- 
chy meta-modeli wymagają różnego podejścia do: wyboru ich funkcjonalnej specy- 
fikacji, konstrukcji eksperymentu symulacji i estymacji parametrow. 


3. Metoda rekonstrukcji dynamiki preferencji w sieciach społecznych 


W niniejszym rozdziale zaprezentowano autorską procedure (algorytm) rekonstrukcji 
dynamiki preferencji w sztucznych sieciach społecznych wykorzystującą wieloagentowy model symula- 
cyjny. Procedura ta uwzględnia metody estymacji struktury sieci połączeń społecznościo- 
wych oraz metody modelowania dynamiki opinii w sieciach opisywane w literaturze. 

Proponowany algorytm wygląda następująco: w punkcie wyjścia są dostępne dane 
ze spisu społecznego oraz dane z internetowego portalu SPOD, w tym dane demograficzne 
podane przez użytkowników podczas rejestracji, a także informacje o połączeniach po- 
między nimi (użytkownicy portalu mają możliwość wyboru ktęgu swoich znajomych spoś- 
ród użytkowników portalu poprzez wysyłanie lub akceptację odpowiednich zaproszeń). 
Ponadto, zakłada się, że każdy agent może ujawnić jedną z trzech opinii: (1) za, (2) obo- 
jetny, (3) przeciw. 

W pierwszym kroku na podstawie danych ze spisu ludności jest generowana sztucz- 
na populacja, która pod względem rozkładów cech jest zbliżona do populacji rzeczy- 
wistej. Następnie na podstawie obserwowanej próby, czyli połączeń pomiędzy użyt- 
kownikami portalu społecznościowego, jak tównież ich indywidualnych cech jest te- 
konstruowana siatka połączeń na całą syntetyczną populację. Celem określenia praw- 
dopodobieństwa istnienia połączeń pomiędzy agentami, należącymi do syntetycznej 
populacji, zastosowano model regresji logistycznej. Zmiennymi objaśniającymi w mo- 
delu były pary cech socjodemograficznych, w szczególności różnice pomiędzy wartos- 
ciami tych cech dla obu agentów. Wyznaczając parametry modelu, przyjęto zasadę, 
że im mniej agenci różnią się od siebie (np. liczbą kategorii wieku, jaka ich dzieli), 
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tym wyższe jest prawdopodobienstwo, że przyjaźnią się (zjawisko hemofilii). Wzór przeds- 
tawiono następująco: 


1 
P(yij = 1) = EŃ iyi} 
1+ tot arx|xi—x]|+-tanx|xh—xh| 
gdzie symbolem x’ = Eee Ae | oznaczono wektot cech socjodemograficznych 


agenta i. 

W kolejnym kroku dla syntetycznej populacji agentów wygenerowano ich opinie 
pierwotne, czyli opinie wyrażane przez nich po raz pierwszy, na które pozostali oby- 
watele i wyrażone przez nich opinie nie mieli jeszcze wpływu. W tym celu wykorzy- 
stano model trinomialny, którego parametry zostały oszacowane na danych pochodzą- 
cych z portalu społecznościowego: założono, że jedna z trzech możliwych opinii wyra- 
żanych przez danego agenta j w rundzie 0, oznaczona symbolem o(v;, 0), zależy od 
jego indywidualnych cech, zgodnie ze wzorem: 


ad l 
10 +YEXXI H EVAAA 


P(o(v;,0) = k) = 


Yii eviti XA tety XX 


Następnie dla różnych wartości parametru B, który odzwierciedla wagę przywiązania 
danego agenta do własnej opinii (8 — waga opinii własnej agenta, 1-8 waga wpływu 
opinii agentów sąsiadujących), jest przeprowadzany eksperyment symulacyjny. Agenci 
w kolejnych krokach symulacji wchodzą w interakcje z ptzyjaciółmi, co przekłada się 
na zmianę ich opinii. Modelowanie dynamiki opinii w opisywanym algorytmie wygląda 
następująco: w kolejnych iteracjach preferencje agentów są aktualizowane jako liniowa 
średnia ważona opinii danego agenta oraz opinii agentów sąsiadujących. Przyjęte po- 
dejście należy do prostszych metod modelowania dynamiki preferencji [de Groot, 1977], 
w odróżnieniu od metod wykorzystujących podejście Bayesowskie [zob. np. Acemoglu, 
Ozdaglar, 2011]. Jednak mogłoby zostać rozszerzone np. o wagi zmienne w czasie 
[Krause, 2000] czy też poprzez wprowadzenie tzw. upartych agentów (ang. stubbornagents), 
którzy nie zmieniają swojej opinii pod wpływem innych agentów. Ostatecznie wynik 
otrzymany za pomocą eksperymentu symulacyjnego na całej populacji jest potówny- 
wany ze strukturą preferencji w obserwowanej próbie, czyli w grupie użytkowników 
portalu internetowego. 

Przyjmijmy, że agent j posiada # sąsiadujących agentów, a rozkład ich opinii opi- 
suje wektor n(v), zgodnie ze wzorami: 


n= Nk, 
kef—1,0,1) 
Ny No Ny 


rw) = (—, =, =). 
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Dla każdego agenta i każdej kolejnej rundy rozwazono trzy alternatywne sposoby 
aktualizacji opinii w rundzie r, takie jak: 


Cs + 1) -k*, 
a) metoda średniej opinii sąsiadujących agentów: 
nyi — n 


s=Bxo(v,r) + (1-8)x———, 


0, —0,33 < s < 0,33, 


—1,s < —0,33 
= | 
1,s > 0,33 


b) metoda dominującej opinii sąsiadujących agentów: 
S=Bx o(v;,r) + (1—8) x o(max,r), 


—1 n1 = Nmax AN-1 EMMY 
o(max,r) =4 Ong = Nmax VN-1 = , 
1,4 = Nmax ANI EM 


Nmax = MaX(N_4N9,N4), 


—1,s < —0,33 
k* = p —0,33 < s < 0,33, 
1,s > 0,33 


c) metoda polaryzującej opinii sąsiadujących agentów: 
k* = sign(B x 10 x o(v;r) +n- n). 


Opisany wyżej algorytm odnosi się do docelowej sytuacji, w której są znane dane 
z portalu SPOD. Jednakże dane te nie są jeszcze dostępne, więc analiza opisywana w ni- 
niejszym artykule musiała opierać się na sztucznie wygenerowanej próbie użytkowni- 
ków: w pierwszym kroku na podstawie danych ze spisu ludności, również wygenerowa- 
no sztuczną populację (jej rozkład cech demograficznych odpowiadał populacji rzeczy- 
wistej) i na niej zasymulowano dynamikę dyfuzji (rozprzestrzeniania się) preferencji. Na- 
stępnie losowo, metodą kuli śnieżnej z całej sztucznej populacji wybierano różne poten- 
cjalnie niereprezentatywne subpopulacje. Inne metody losowania próby dla sieci społecz- 
nościowych szczegółowo opisano w przytoczonej literaturze [Frank, 1974]. Dla każdej 
subpopulacji testowano algotytmy uogólniania preferencji przez odtwarzanie dynamiki 
całej populacji. Miarą jakości modelu w takim podejściu jest także zgodność preferencji 
wygenerowanych (symulowanych) i odtworzonych na podstawie wylosowanej subpopula- 
cji. Zgodność taka była rozważana zarówno na wylosowanej subpopulacji, jak i wygene- 
rowanej całej syntetycznej populacji. Ostatnim etapem było zatem zbieranie wyników 
wykonanych symulacji oraz meta-modelowanie. W analizie prezentowanej w niniejszym 
artykule meta-modelowanie ma dwa główne cele: zrozumienie i przewidywanie. W związ- 
ku z tym, oczekuje się, że otrzymane meta-modele mają dwie charakterystyki: prostą in- 
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terpretację swojej struktury oraz moc statystyczną. W analizie opisywanej w tym artyku- 
le jako przybliżenie zastosowano lasy losowe, któte należą do klasy modeli posiadają- 
cych powyższe dwie pożądane właściwości. 


4. Narzędzia i etapy modelowania 


Wieloagentowy model symulacyjny, umożliwiający rekonstrukcje preferencji w sztucz- 
nych sieciach społecznych, został zaimplementowany dzięki wykorzystaniu następują- 
cych oprogramowań typu Free Open Source: R, Java, Python, MASON, Weka, JUNG. 
Na rysunku 1. zaprezentowano warstwy symulacji modelu ODGM. Zastosowane podej- 
ście pozwoliło na porównywanie wyników dla różnych parametryzacji modelu i tym 
samym umożliwiło testowanie wrażliwości modelu na zmiany wartości parametrów. 


RYSUNEK 1. 
Warstwy parametrów w wieloagentowym modelu symulacyjnym 


Powtórzenia symulacji 


e 
a Wyniki symulacji | 
+ I ; 
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Kalibracja procesu generacji sztucznej populacji 


Zródło: opracowanie własne. 


Problemem w symulacyjnych modelach wieloagentowych o wysokiej liczbie para- 
metrów może być duża liczba powtórzeń symulacji, czyli przeszukiwanie bardzo ob- 
szernej przestrzeni parametrów, co wymaga znacznej mocy obliczeniowej. Z tego wzglę- 
du opisywany model symulacji został przeprowadzony na klastrze obliczeniowym 
w chmurze Amazon Web Services. Do procesu ztównoleglania obliczeń wykorzystano 
narzędzie Open Grid Scheduler, a w szczególności jego implementację przeznaczoną do 
wykorzystania w środowisku obliczeń w chmurze — Star Cluster. Moduł symulacji został 
napisany w języku programowania Java, zaimplementowany w środowisku symulacyjnym 
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MASON i opierał się na kilku bibliotekach typu Open Source. Syntetyczna populacja, 
analiza i wizualizacja zostały przeprowadzone w języku GNU R, wykorzystując odpo- 
wiednie biblioteki. Poniżej opisano kolejne etapy estymacji sztucznej populacji mias- 
ta Prato i przeprowadzonych na niej symulacji. 
Stworzenie skryptu symulacji. 
Analiza zagtegowanych danych pochodzących ze spisu ludności miasta Prato. 
Wygenerowanie sztucznej populacji na podstawie powyższych danych. 
Zbudowanie siatki połączeń pomiędzy agentami w sztucznej populacji. 
Stworzenie pierwotnych preferencji w sztucznej populacji. 
Symulacja dynamiki dyfuzji preferencji w populacji. 
Wybór próby subpopulacji. 
Uruchomienie właściwej symulacji, czyli przeprowadzenie określonej liczby 
symulacji dla danych kombinacji parametrów modelu (parametryzacji). 

Kod źródłowy opracowanej implementacji modelu może być pobrany ze strony: 
https: / /bitbucket.otg/pszufe/socialptefetencessimulation2/. 


DOSY Oe DDT 


5. Wyniki eksperymentów symulacyjnych 


Dane, na których opierała się niniejsza analiza, pochodziły ze spisu ludności we 
włoskim mieście Prato i z danych tocznych deklaracji podatkowych, z których pobrano 
informacje o dochodach obywateli. Na koniec roku 2014 Prato zamieszkiwało 191 ty- 
sięcy ludzi. W analizie wykorzystano następujące cechy społeczno-demograficzne: region 
zamieszkania, płeć, kategorię wiekową, zawód, stan cywilny i kategorię dochodu tocz- 
nego. Na podstawie informacji o wszystkich rozkładach brzegowych zmiennych wyge- 
nerowano teptezentatywną próbę 2 480 mieszkańców, której następnie przyporzad- 
kowano opinie pierwotne (bazując na obserwowanych społeczno-ekonomicznych ce- 
chach) oraz na której zasymulowano dyfuzję prefetencji. Z wygenerowanej populacji 
losowano niereprezentatywne próby, na których wykonywano eksperyment symu- 
lacyjny. W celu wprowadzenia do modelu błędu reprezentatywnosci starsi mieszkańcy 
mieli tendencję do głosowania ,,za’”, a bogatsi do głosowania „przeciw”. 

W każdym ze skończonych kroków symulacji można było obserwować dynamikę dy- 
fuzji preferencji w populacji i w subpopulacji. W eksperymencie symulacyjnym toz- 
wazono pięciowymiarową przestrzeń parametrów, opisanych poniżej. 

1. Model dyfuzji preferengi wskazujący na sposób, w jaki dany agent uwzględnia opi- 
nię innych agentów, z którymi jest połączony. Przyjęto trzy możliwe mode- 
le: (1) agent uwzględnia średnią opinię sąsiadów; (2) agent uwzględnia dominującą 
opinię sąsiadów; (3) agent połaryzyje opinię sąsiadów, czyli juz po pierwszej run- 
dzie symulacji musi być albo za, albo przeciw: nigdy nie może być neutralny. 

2. Średnia liczba połączeń determinujaca gęstość sieci połączeń pomiędzy agentami. 

3.  Przywiązanie do opinii, czyli parametr beta Be(0,1) homogeniczny dla wszystkich 
agentów, reprezentujący siłę przywiązania agenta do własnej opinii (8 — waga 
opinii własnej agenta, 1-8 — wpływ opinii agentów sąsiadujących). W anali- 
zie przyjęto osiem poziomów tego parametru. 
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4. Struktura opinii początkowych: parametr wyrażający typ opinii pierwotnej: każdy 
agent mógł wyrażać na początku jedną z trzech opinii: za, neutralny, przeciw. 
5. Rozmiar próby, czyli parametr reprezentujący sposób, w jaki subpopulacja agen- 
tów jest losowana. Przyjmuje szesnaście poziomów. 
Pełen iloczyn kartezjański powyższej przestrzeni parametrów zawierał 1 536 punktów 
(5 parametrów pomnożonych przez liczbę przyjmujących przez nie poziomów). Dla 
każdej parametryzacji wykonano 30 symulacji, co łącznie dało 46 080 wykonanych 
eksperymentów symulacyjnych. Celem tych eksperymentów był pomiar zgodności 
preferencji między preferencjami rzeczywistymi (w populacji rzeczywistej) a symu- 
lowanymi (w wygenerowanej, syntetycznej populacji). Zgodność jest miarą słusznoś- 
ci zastosowanego podejścia do uogólniania preferencji w analizowanym problemie 
badawczym. Rozumowanie to zostało zobrazowane na rysunku 2. 


RYSUNEK 2. 
Zgodność rzeczywistych i symulowanych preferencji jako miara jakości 
w podejściu uogólniania preferencji 
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Zródło: opracowanie własne. 


Jak się okazało, kolejne rundy symulacji prowadzą do wzrostu zgodności preferencji 
między populacją rzeczywistą a odtworzoną zarówno dla całej populacji, jak i dla sub- 
populacji, co zostało przedstawione na rysunku 3. Wykres z lewej strony reprezentuje 
zgodność na całej populacji, czyli odsetek par zgodnych opinii końcowych, symulowa- 
nych w procesie tworzenia syntetycznej populacji i odtworzonych na podstawie wy- 
losowanej próby za pomocą algorytmu opisanego w niniejszym artykule, obserwowa- 
nych na całej populacji syntetycznej. Analogiczne miary dla wylosowanej subpopu- 
lacji zobrazowano na rysunku 3. po stronie prawej. W równej mierze na jednym, jak 
i na drugim rysunku zgodność preferencji rośnie wraz z kolejnymi krokami symulacji, 
a poziom zgodności jest zadowalający (90% na poziomie populacji). 


44 Marcin Czupryna, Przemysław Szufel... 


RYSUNEK 3. 
Przykładowe wyniki symulacji: zgodność populacji rośnie zarówno w całej 
populacji, jak i w podpopulacji 
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Uwaga: linia ciągła przedstawia wartości średnie, natomiast linie przerywane prezentują granice 
przedziału, w którym mieściło się 90% uzyskanych wyników symulacji. 


Zródło: opracowanie własne. 


Rysunek 4. przedstawia średni błąd uogólniania preferencji. Dla niezgodnych pa- 
rametrów B średni błąd absolutny uogólniania preferencji jest na wysokim poziomie 
zarówno na początku, jak i na końcu symulacji. Z kolei, dla zgodnych parametrów 
8 wraz ze wzrostem liczby symulacji średni błąd odtworzenia preferencji na podpopu- 
lacji maleje. 

Na ostatnim etapie za pomocą meta-modelu lasów losowych sprawdzono, który 
parametr jest krytyczny pod względem wpływu na błąd odtwarzania preferencji. Na 
rysunku 5. zostały zilustrowane wyniki porównania dwóch stanów symulacji: na po- 
czątku eksperymentu symulacyjnego i na końcu, czyli po wykonaniu symulacji na całej 
przestrzeni parametrów. Można zauważyć, że najbardziej istotnymi determinantami 
błędów uogólniania preferencji są model dyfuzji preferencji oraz waga opinii własnej 
agenta (parametr $). Zatem typ dynamiki dyfuzji opinii i przywiązanie do opinii włas- 
nej agenta mają największy wpływ na błąd odtworzenia preferencji. 

Dalsze wyniki analizy symulacji pokazały również, że błąd reprezentatywności wzras- 
ta równolegle z tym, jak opinie agentów stają się jednorodne. Innymi słowy, spadek wa- 
riancji opinii w populacji prowadzi do wzrostu błędu reprezentatywności. 
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RYSUNEK 4. 
Przykładowe wyniki symulacji: średni błąd uogólniania preferencji maleje 
wraz ze wztostem liczby iteracji symulacji 
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Zródło: opracowanie własne. 


RYSUNEK 5. 

Czystość węzła w metodzie lasów losowych na początku i na końcu symula- 

cji wykonanej na całej przestrzeni parametrów: 30 powtórzeń dla każdej para- 
metryzacji. Determinanty błędów odtwarzania prefetencji 
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Zródło: opracowanie własne. 
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6. Podsumowanie 


W opracowaniu przedstawiono estywowanie dynamiki preferencji w sztucznych sieciach spo- 
łecznych, którego celem było stworzenie systemu efektywnego uwzględniania preferen- 
cji obywateli przez administrację publiczną w swoich decyzjach. W skonstruowanym 
modelu rozważano rzeczywistą sytuację, w której za pomocą platformy społecznościo- 
wej administracja udostępnia informacje na temat podejmowanych decyzji, umożliwiając 
obywatelom: monitorowanie, kontrolę i wymianę zdań na temat swoich działań i wy- 
datków publicznych. Jednocześnie na podstawie tej platformy administracja publiczna 
może obserwować opinie mieszkańców i analizować ich preferencje. W celu efektyw- 
nego i uwzględniającego preferencje całej populacji podejmowania decyzji administracyj- 
nych, należy jednak uogólnić preferencje subpopulacji, czyli użytkowników portalu 
społecznościowego, na całą populację, a mianowicie na wszystkich obywateli. Anali- 
za taka opiera się na danych pochodzących ze spisów ludności, a w przyszłości może także 
opierać się na danych z portalu społecznościowego, w szczególności na danych dotyczą- 
cych: logowania przeglądanych baz danych, intensywności prowadzonych dyskusji, in- 
dywidualnych preferencji czy sieci połączeń. W zaprezentowanych w artykule wyni- 
kach wykorzystano dane o użytkownikach portalu wygenetowane w symulacjach. Zas- 
tosowanie opisanej metody do rzeczywistych danych o użytkownikach portalu będzie 
przedmiotem dalszych badań. 

Jako metodę modelowania dyfuzji preferencji w sieciach społecznościowych wyko- 
rzystano symulacje wieloagentowe. Podejście to pozwoliło na uogólnienie informacji 
o preferencjach użytkowników internetowej platformy społecznościowej na całą po- 
pulację, w celu umożliwienia administracji publicznej podejmowania decyzji odpowied- 
nich dla wszystkich obywateli. W opracowaniu przedstawiono implementację praktyczną 
powyższego modelu do danych dotyczących prowincji Prato we Włoszech. Na podsta- 
wie danych empirycznych wygenerowano sztuczną populację liczącą 2 840 agentów, 
na której przeprowadzono łącznie 46 080 symulacji. Rezultaty eksperymentu symula- 
cyjnego potwierdziły skuteczność modelu: wraz ze wzrostem liczby symulacji wzrastała 
zgodność preferencji między populacją rzeczywistą a syntetyczną. Zdiagnozowano 
także determinanty błędu uogólniania preferencji na całą populację: są to model dyfu- 
zji preferencji oraz waga opinii własnej agenta. 
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